iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 4
0

TF-IDF演算法資訊檢索中是相當重要的。TF-IDF演算法主要包含了兩個部分:詞頻(term frequency,TF)跟逆向文件頻率(inverse document frequency,IDF)。
其中,詞頻https://chart.googleapis.com/chart?cht=tx&chl=%24tf_%7Bij%7D%24表示第i個word在第j篇文章出現頻率,一個word在文章中出現頻率越高表示它的重要性越大。以下有幾種表示tf的方式,如下表:
https://ithelp.ithome.com.tw/upload/images/20200903/20110042BJuj3osEFT.png
另外,逆向文件頻率是用來處理常用字的問題,假設詞彙i總共在https://chart.googleapis.com/chart?cht=tx&chl=%24df_i%24篇文章中出現過,則詞彙i的IDF定義成:
https://chart.googleapis.com/chart?cht=tx&chl=%24idf_i%24=loghttps://chart.googleapis.com/chart?cht=tx&chl=%24%24%5Cfrac%7BN%7D%7B%24df_i%24%7D%20%5Cquad%24%24
https://ithelp.ithome.com.tw/upload/images/20200903/201100429GZC6NT9Ec.png
而一個字對於一篇文件重要性的分數就可以透過TF與IDF兩個指標計算,我們將第i個詞彙對於第j篇文件的TF-IDF權重定義為:
TF-https://chart.googleapis.com/chart?cht=tx&chl=%24IDF_%7Bij%7D%24=https://chart.googleapis.com/chart?cht=tx&chl=%24tf_%7Bij%7D%24*https://chart.googleapis.com/chart?cht=tx&chl=%24idf_%7Bi%7D%24

小結:

今天介紹了經典的文件探勘演算法TF-IDF,明天會介紹向量空間模型(Vector Space Model)也用到TF-IDF演算法喔/images/emoticon/emoticon30.gif喜歡我的文章的話也歡迎訂閱~


上一篇
Day03:機率模型 (Probabilistic Model)
下一篇
Day05:向量空間模型(Vector Space Model)
系列文
資訊爆炸時代學資訊檢索與擷取8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言